图 E 1 强化学习问题和悬崖世界环境。 (A) 代理(这里是小鸟)与世界互动以最大化奖励。 这涉及探索可能有趣的新状态(例如在新田野中寻找食物)与利用已知可产生高奖励的状态(例如昨天有很多虫子的田野)之间的平衡。 在给定的时间点,小鸟处于某个状态 st ,它可以从该状态 st 采取行动 at ,不同行动的概率由代理控制的“策略”π(a | st)决定。 然后,at 会导致环境根据不可控环境动态 st + 1 , rt ∼ p(s,r | st,at)发生变化。 这里,rt 是代理收到的经验“奖励”,其目标是收集尽可能多的累积奖励。强化学习问题通常分为“情节”,代理在多次重复接触环境的过程中进行学习。例如,这可能包括鸟类在多天内学习哪些田地可能富含食物,同时尽量减少行进距离和暴露于捕食者。(B)“悬崖世界”环境,将用于展示本研究中一系列强化学习算法的性能和行为。代理从左下角(位置 [0, 0])开始,当遇到“悬崖”(深蓝色)或目标(黄色;位置 [9,0])时,情节结束。如果代理走出悬崖,它将获得 -100 的奖励。如果它找到目标,它将获得 +50 的奖励。在任何其他状态下,它将获得 -1 的奖励。这种对“中性”行为的负面奖励通常用于鼓励代理尽快实现其目标。箭头表示“最佳”策略,该策略让代理通过避开悬崖的最短路线到达目标。